И еще про распределенную флибусту
Oct. 9th, 2024 08:19 amЧеловеку, как правило, не нужны все книги мира. Их просто не хватит жизни прочитать (да и, как говорил Теодор Старджон 90% их того не заслуживают).
Другое дело что узнаем мы о том, что вот эту книгу надо бы прочитать (например по ссылке из другой книги), как правило, внезапно. Поэтому при нынешней дешевизне хранения информации куда проще хранить у себя на диске миллион-другой книг, чем разбираться где найти нужную, когда она понадобится.
Но это только при условии что в этом миллионе мы умеем искать, и искать качественно. К сожалению, сейчас средства локального поиска заметно уступают средствам интернет поиска (включая туда и LLM). Хотя вот Elastic Search обратно открылся так что варианты есть.
Собственно чем мне не нравится ситуация в нынешнем интернете, в котором вымирают гиперссылки?
Со времен Гутенберга, если не ранее, был известен принцип "рукописи не горят". Стоило какой-то рукописи пойти в народ, а тем более попасть в типографию, как она тут же размножалась на множество копий, и никакие стихийные бедствия, никакие усилия цензуры не могли истребить их все.
В современном интернете это не так. Мы привыкли к централизованным ресурсам, и если вдруг такой ресурс по тем или иным причинам погибнет, вместе с ним погибнет весь контент. (а у вас есть копия вашего блога, из которой вы сможете восстановить хотя бы самые ценнные посты? У меня - есть).
Поэтому то, что попадание владельца Флибусты в больницу заставило многих задуматься об этой проблеме - это хорошо.
Но существующий в интернете массив электронных книг (начиная с расползшегося по торрентам архива флибусты) далеко не идеален.
В первую очередь, мне не нравится то, что большая часть электронных книг не самодостаточны. Хотя авторы их форматов приложили немало усилий для того, чтобы вся необходимая информация содержалась прямо в файле книги. (но скажем у Грибова в fb2 есть понятие "серии" - sequence, а в Doublin Core я аналога не знаю. Зато в Doublin Core есть "редактор".)
Как правило, большая часть тех кто превращает бумажную книгу в файл, и даже и тех кто оформляяет в таком формате текст, изначально набитый на компьютере, корректным заполнением метаинформации не звморачиваются.
Да даже если бы из заморачивались, есть вечные вопросы которые ведут к неоднозначаностям. Вот скажем, Игорь Можейко и Кир Булычев - это разные авторы или один? А кто такой вообще Павел Багряк? Ему выделять отдельную позицию в алфавитном списке или расписывать по пяти соавторам, которые явно имеют в библиотеке и свои самостоятельные книги.
Опять же многие книги имеют авторские версии разных лет, издания в разных издательствах с разной редактурой. Это одна и та же книга или разные?
В формате FB2 предусмотрен UUID книги и версия. Но в существующем массиве из 800800 книг далеко не во всех файлах оно заполнено корректно. Да там и других проблем хватает. Насколько я понял, на флибусте зааплоаженную книгу рассматривают как единый и неделимый артефакт, а метаинформацию о ней если и выправляют, то в базе данных, а не в самом файле.
Мне такой подход кажется непрввильным. Метаинформацию, ошибки форматирования и опечатки (которые в большинстве случаев ошибки OCR, т.е. привнесены уже при оцифровке) исправлять надо.
Чтобы потом можно было перекинуть один-единственный файл книги другому читателю по электронной почте, через мессенжер, на флэшке, как угодно, и у него бы читалка правильно поместила эту книгу в свой каталог, пользуясь только тем, что написано в самой книге.
Кстати, когда я сканировал энциклопедию "Море", я прошелся по списку замеченных опечаток, вложенному в книгу в виде листочка (была в 1960 такая практика) и все их исправил в графических файлах страниц, заменив неправильную букву на правильную, скопированную из соседнего слова. И только после этого стал из этих файлов собирать djvu. (а вот в djvu по-моему вообще никто метаинформацию не заполняет. А она там предусмотрена)